Yiksan0315's Blog

MAP

# Tag:

  • Source/KU_ML

MAP(Maximum a Posteriori Estimation)

MLE는 관찰된 데이터만을 바탕으로 추정하며, Parameter에 대한 사전 지식(Prior)를 반영하지 못한다.

반면, Posterior는 특정한 파라미터 값이 주어진 데이터에서 얼마나 가능성이 높은지를 찾는 것으로, 사전 지식과 데이터를 결합해 더 직관적인 추정을 가능하게 한다.

  • MAP는 Prior를 반영하므로, 데이터가 적거나 노이즈가 많은 경우 Overfitting을 방지하면서 Estimation 가능하다. 즉, MLE에 비해 Prior를 활용해 보완하는 것이라 할 수 있다.
  • MLE는 Prior가 없더라도 데이터를 최대한 활용해 Estimation이 가능하다.
    • Likelihood : 인 경우라고도 볼 수 있다. 즉, 관측되지 않은 경우를 고려하지 않고 관찰된 경우에서만 따지므로 이에 대한 Parameter의 확률은 1일 수 밖에 없다.

Conjugate Prior

Likelihood와 결합할 때, Posterior가 Prior와 동일한 distribution family에 속하도록 설계된 Prior distribution.

간단히 하여, Prior와 Posterior의 distribution이 동일한 distribution family( ex) posterior: Gaussian Distribution prior: Gaussian Distribution)를 유지하도록 하는 것이다.

이를 통해 Posterior의 계산 과정을 단순화하고, Posterior를 구하기 위해 Likelihood와 Prior의 곱을 정규화하는 과정을 생략할 수 있게 해준다.

MAP for Categorical Distribution

  • Likelihood: , and
  • Conjugate Prior: Dirichlet distribution,

By IID:

: when,

이를 Lagrange Multiplier를 이용해 Optimization 문제로 전환하면

  • : 이 때, : 가 나온 횟수를 다 더하면 .

: 연립하면,
결국에 이는 NBC의 문제를 보완하기 위해 고안된 M-estimate와 동일하게 된다.
(, ): 라면, [[MLE]]와 동일해진다.

MAP for Gaussian Distribution

Prior와 Posterior의 Distribution 형태가 동일하게 유지되어야 하므로 평균 에 대한 Guassian Distribution을 이용한다. (guassian-guassian conjugacy)

Variance에 상관 없이, 데이터의 중심(평균)에 대한 불확실성을 반영하기 위함이다. 새로운 데이터가 반영될 수록, 평균에 대한 불확실성(평균 역시 Guassian Distribution이므로, 이에 대한 분산이 존재하며 이는 곧 불확실성이 된다)를 점점 줄여나가게 된다.

Likelihood 자체가 이미 Variance에 대한 정보를 반영하고 있으므로, Variance에 대한 Prior를 별도로 명시하지 않아도 데이터를 통해 Variance를 반영하게 된다.
여전히 Variance에 대한 불확실성은 존재하지만, 아래에서는 평균에 대해서만 따진다.

MAP Estimation of for Gaussian Distribution

  • : 에 대한 guassian distribution. 즉, conjugate prior.

는 Evidence 등 적절히 정리된 상수이고, 이 상수에 와 관련 없는 개별적 term들을 묶어내면,
: 에 대해서 를 적당히 잘 조절하여서 다음과 같이 만들면

즉, conjugate prior을 사용한 이유에 따라 train Data에 대한 평균의 posterior distribution과 동일해야 하므로 에 대한 coefficient 를 일치시키면

  • :
  • : :when

  • : : 데이터를 보고 판단한 평균.
  • : : 데이터를 관찰 전에 구한 prior 평균.

에서, 는 각각 합했을 때 이므로 weighted sum이라 할 수 있다.
이는, : (데이터 개수 혹은 관찰된 횟수)가 높아짐에 따라 MLE(데이터에 대한 믿음)에 대한 비중을 크게 두고, 작아짐에 따라 Prior(사전의 믿음)이 커진다는 결론이 된다.

이 때, 는 prior에 대한 Variance(:평균으로부터 벗어날 불확실성)이므로 0에 가까울 수록 prior에 대한 믿음이 커진다.

Bayesian estimation

Random Variable 의 가장 optimal한 추정 방법은,

  • : 알고자 하는 parameter : label.
  • : 예측 값 (추정). 일 때, : error를 가장 작게 만드는 것이다.

: 이 때, 만 조정 가능하므로 를 평균값으로 추정할 때 Error가 가장 작아질 것이라 예측해 볼 수 있다.

즉, 우리가 추정하고자 하는 최적의 parameter

이고, 이는 uniform prior, likelihood 추정, gaussian posterior 등에 대해 등으로 변한다.
(결국, 최적의 parameter 는 MAP에 의해 계산된다.)

toc test

이 페이지는 리디주식회사에서 제공한 리디바탕 글꼴이 사용되어 있습니다. 리디바탕의 저작권은 리디주식회사가 소유하고 있습니다.

This Font Software is licensed under the SIL Open Font License, Version 1.1.

Copyright 2025. yiksan0315 All rights reserved.